El lenguaje R tiene su origen en el lenguaje S y fue desarrollado por Ross Ihaka y Robert Gentleman en el Department of Statistics of the University of Auckland in Auckland, New Zealanda a mediados de los años 90.
RStudio es un IDE que incrementa las capacidades de R con una variedad de funcionalidades.
Para realizar muchas de las cosas necesarias en un pipeline de analisis es necesario cargar ciertas librerias
install.packages('Nombredelalibreria') #Para instalar librerias
library(Nombredelalibreria) #Para cargar la libreria
#(notese la falta de comillas)
La gran mayoria de las librerias que vamos a utilizar se encuentran dentro del paquete tidyverse.
The tidyverse is an opinionated collection of R packages designed for data science. All packages share an underlying design philosophy, grammar, and data structures.
Las librerias mas utiles para importar datos son readr y readxl, siendo esta ultima creada particularmente para archivos de Excel
Hay una variedad de funciones para importar siguiendo todas un formato del estilo
read_formatodearchivo('File/Path')
#Por Ejemplo
read_csv() #Para leer CSV
read_tsv() #Para leer archivos separados por Tabs
read_delim() #Para definir la delimitacion entre los elementos
#Para leer excel
read_xls()
read_xlsx()
Las funciones para guardar una base de datos desde R sigue una logica similar a la importacion y utilizan las mismas librerias
write_formatodearchivo('File/Path')
write_csv()
write_tsv()
write_delim()
Tres reglas interrelacionadas:
Hay ocasiones en las cuales es necesario modificar la estructura de un dataset
pivot_longer()
Podemos pasar facilmente de un formato long a un formato wide
pivot_wider()
Constituye la base del uso de ggplot y librerias asociadas.
library(ggplot2) ggplot(data = pressure)
ggplot(data = pressure,
mapping = aes(x = temperature, y = pressure))
ggplot(data = pressure, mapping = aes(x = temperature, y = pressure)) + geom_point()
ggplot(data = pressure, mapping = aes(x = temperature, y = pressure)) + geom_line() ggplot(data = pressure, mapping = aes(x = temperature, y = pressure)) + geom_step()
ggplot(data = pressure, mapping = aes(x = temperature, y = pressure)) + geom_point() + geom_line()
La funcion ggpairs() del paquete GGally es muy util para la visualizacion de datos multivariados.
GGally::ggpairs(iris)
El paquete ggpubr posee diversas funcionalidades utiles en graficos aptos para presentacion en el mundo academico.
La libreria plotly permite convertir graficos de ggplot en graficos interactivos